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(57) Abstract 

The invention 
relates to a method and 
system for representing 
the relevance of electronic 
documents in relation 
to user-specific search 
and interest profiles. The 

relevance of each respective document in relation to specific search profiles is essentially determined by counting words. Documents and 
search profiles are interpreted as vectors, individual words are considered as vector components and the frequency of words is seen as 
values of vector components. The document vectors and search profile vectors are projected on a common plane and the angle formed by 
the vectors is used to measure the conformity of said document in relation to the respective search profile. The results of analysis are 
represented in three dimensions enabling the documents to be arranged in such a way that similar documents are located next to each 
other or documents which are relevant to a search profile are arranged close to said search profile. The system can be especially used in 
searches in computer networks such as Internet or for databank searches and visualization of library contents, archives or complex data 
stock of all varieties. 



(57) Zusammenfassxmg 

Die Erfindung beschreibt ein Verfahren und ein System zur Darstellung der Relevanz elektronischer Dokumente in Bezug auf 
benutzerspezifische Such- bzw. Interessenprofile. Die Relevanz der jeweiligen Dokumente in Bezug auf bestimmte Suchprofile wird im 
wesentlichen durch Zahlen von Worten bestimmt. Dokumente und Suchprofile werden dabei als Vektoren aufgefaBt, mit den einzelnen 
Worten als Vektorkomponenten und der HSufigkeit der Worte als Werten der jeweiligen Vektorkomportenten. Die Dokumentenvektoren 
und Suchprofilvektoren werden in eine gemeinsame Ebene projiziert und der Winkel zwischen den Vektoren dient als MaB fur die 
Obereinstimmung des Dokuments mit dcm jeweiligen Suchprofil. Die Analyseergebnisse werden dreidimensional dargestellt und zwar 
derartig, daft Dokumente so angeordnet werden, daB ahnliche Dokumente beieinander liegen, bzw. Dokumente, die relevant auf ein 
Suchprofil sind, in der Nahe dieses Suchprofiles angeordnet werden. Angewendet werden kann dieses System insbesondere bei Suchen 
in Rechnemetzwerken, wie dem Internet bzw. Datenbankrecherchen und zur Veranschaulichung von Bibliotheksinhalten. Archiven oder 
komplexen Datenbestanden aller Art. 
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Beschreibung 

Verfahren und System zur rechnergestut zten Ermittlung einer 
Relevanz eines elektronischen Dokuments fiir ein vorgebbares 
5 Suchprofil. 

Die Erfindung bezieht sich auf ein Verfahren und ein System, 
womit die Relevanz von Dokumenten, wie sie beispielsweise bei 
einer Internetsuche gefunden werden, beziiglich vorgegebener 
10 Interessenprof ile dargestellt werden kann. 

Die zunehmende elektronische Datenflut in Wissenschaf t , Inge- 
nieurwesen und Wirtschaft erschwert das Auffinden und den Zu- 
griff auf relevante, verlaJJliche und moglichst vollstandige 
15 Informationen. Bisherige Losungsvorschlage fttr Data Mining 
und Visualisierung grofier Inf ormationsmengen, insbesondere 
von Volltexten und WEB-Seiten, sind haufig weder anwender- 
freundlich noch effizient genug fiir den praktischen Einsatz. 

20 Bestehende Technologies wie sie z. B. bei Internet Recher- 
chen angewendet werden, beschrSnken sich zur Zeit noch ttber- 
wiegend auf die Ausgabe von Texten oder unubersichtlichen 
Listen von Quellenangaben. Ans&tze zur Visualisierung sind 
zwar in der Literatur dokumentiert , beschranken sich aber 

25 entweder auf die Visualisierung wissenschaf tlicher Daten, 

oder vernachlassigen die Aspekte der Erschliefiung von Infor- 
mationsbestanden und die Ankopplung an die Visualisierung ♦ 
Aus dem Artikel von T. Fiihring, K. Jacoby, R. Michelis, J. 
Panyr "Kontextgestaltgebung : Eine Metapher zur Visualisierung 

30 und Interaktion mit komplexen Wissensbestanden" , erschienen 
in den Proceedings des 4. Internationalen Symposiums fur In- 
formationswissenschaf t (ISI '94) Band 16, ist es bekannt eine 
approximative Einbettung formaler Kontexte in 3D-Inf ormati- 
onsraume durchzuf uhren, deren formale Semantik uber den . 

35 Abstandsbegrif f auf der Grundlage des Prinzips "kontextuelle 
Nahe « raumliche Nahe" definiert wird, Hierdurch ist es mdg- 
lich binare formale Kontexte darzustellen . 
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Aus [1] und [2] ist bekannt, Dokumente hinsichtlich der 
Relevanz dieser Dokumente bezuglich vorgegebener 
Schlusselworte zu analysieren. 

5 Ferner ist aus [3] bekannt, Dokumente hinsichtlich der 
Haufigkeit des Auftretens eines Schlusselwortes zu 
untersuchen. 

Der Erfindung liegt die Aufgabe zu Grunde ein Verfahren und 
10 ein System fur die Veranschaulichung mehrwertiger formaler 
Kontexte anzugeben . 

Diese Aufgabe wird fur das Verfahren gem&fi den Merkmalen des 
Patentanspruches 1 und fur das System gemafi den Merkmalen des 
15 Patentanspruches 13 gel5st. 

Bei dem Verfahren zur rechnergesttttzten Ermittlung einer 
Relevanz eines elektronischen Dokuments fiir ein vorgebbares 
Suchprofil werden mindestens folgende Schritte durchgef ilhrt : 
20 a) es wird das Suchprofil, das mindestens ein Wort umfafit, 
erstellt ; 

b) fur jedes Wort des Suchprofils wird die 

Auf trittshauf igkeit des Wortes in dem elektronischen 
Dokument bestimmt; 

25 c) unter Verwendung der Auf trittshauf igkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 
d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor fttr das 
Suchprofil bestimmt , wobei jedes Wort des Suchprofils eine 

30 Vektorkomponente und ein vorgebbarer Wert ein Wert der 

Vektorkomponente ist, und ein Vektor fttr das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 
der Vektorkomponente ist; 

35 e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 
f) unter Verwendung des Winkels wird die Relevanz bestimmt. 
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Diese Relevanzbestimmung lafit sich mit relativ geringem 
Rechenaufwand durchfuhren, so dafi viele Suchprofile in bezug 
auf viele Dokumente analysiert werden konnen und gleichzeitig 
5 ein akzeptables Zeitverhalten erreicht wird. 

Das System zur rechnergesttitzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fiir ein vorgebbares Suchprofil 
we ist mindestens folgende Merkmale auf: 
10 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, dafi folgende Schritte durchftihrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfaiit, 
erstellt; 

- far jedes Wort des Suchprofils wird die 

15 Auf trittshauf igkeit des Wortes in dem elektronischen 

Dokument bestimmt; 
• unter Verwendung der Auf trittshauf igkeit jedes Wortes 
wird fur das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

20 - unter Verwendung des Suchprofils und des 

Ergebnisprof ils des elektronischen Dokuments wird ein 
Vektor fur das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

25 ein Vektor ftir das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
30 und dem Vektor des Ergebnisprof ils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt; 

b) es ist eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

35 c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden. 
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Weiterbildungen der Erfindung ergeben sich aus den abhangigen 
Ansprtichen. 

Vorzugsweise werden ein erstes, den Vektor eines Suchprofils 
5 repr&sentierendes, Element und ein zweites, den Vektor eines 
Ergebnisprof il eines elektronischen Dokuments 
reprasentierendes, Element dargestellt . 

In einer weiteren Ausgestaltung der Erfindung werden mehrere 
10 zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprof ils eines elektronischen Dokuments 
reprasentieren, derart dargestellt, dafi zweite Elemente von 
elektronischen Dokumenten, welche Dokumente eine Relevanz 
aufweisen, die kleiner ist als ein Schwellenwert , ortlich 
15 naher beieinander dargestellt werden als zweite Elemente von 
elektronischen Dokumenten, welche elektronische Dokumente 
eine Relevanz aufweisen, die nicht kleiner ist als der 
Schwellenwert . 

20 Vorteilhaft wird die Erfindung durch Anwendung einer Winkel- 
funktion auf die gefundenen Winkel zwischen den Suchvektoren 
und den Ergebnisvektoren weitergebildet und in Form einer Re~ 
levanzmatrix weiterverarbeitet, da diese als Ahnlichkeitsma- 
trix interpretiert oder auf einfache Weise in eine solche um- 

25 gewandelt werden kann. 

Vorteilhaft wird die Erfindung unter Verwendung einer Ahn- 
lichkeitsmatix weitergebildet, welche aus der Relevanzmatrix 
abgeleitet wird, und die Ahnlichkeit einzelner Dokumente un- 
30 tereinander angibt. Auf diese Weise lafit sich die Metapher 
"raumliche Nahe = inhaltliche Nahe" in der graphischen Dar- 
stellung sehr einfach realisieren und somit ist bei der Auf- 
bereitung fUr die Graphik ein geringerer Rechenaufwand erfor- 
derlich. 

35 

Vorteilhaft wird die Erfindung durch die Anwendung der Kosi- 
nusfunktion auf die gefundenen Winkel zwischen den Vektoren 
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weitergebildet, da der Kosinus von 0° = 1 ist. Somit wird bei 
einem Obereinanderliegen der Vektoren eine Identitat der Do- 
kumente angegeben, was dem Sachverhalt, der durch die Vekto- 
ren dargestellt wird, entspricht. 

5 

Vorteilhaft wird das erf indungsgemafie Verfahren durch die An- 
wendung in einem Rechnernetzwerk weitergebildet, da haufig 
aus Rechnernetzwerken elektronische Dokumente als Suchergeb- 
nisse erhalten werden, welche innerhalb eines akzeptablen 
10 Zeitabschnitts nicht von Menschen analysiert werden konnen. 

Vorteilhaft wird in einer Weiterbildung der Erfindung als 
Rechnernetzwerk das Internet verwendet, da das Internet bzw. 
World Wide Web ein weit verbreitetes Netzwerk darstellt und 
15 somit eine hohe Nutzerbasis fur das erf indungsgemafie Verfah-~ 
ren vorliegt. 

Vorteilhaft wird die Erfindung durch die Verwendung von elek- 
tronischen Dokumenten aus Datenbanken weitergebildet, da 
20 hierdurch Bibliotheken und andere Datenbanken fur elektroni- 
sche Dokumente sinnvoll, transparent und schnell veranschau- 
licht werden konnen, 

Vorteilhaft ist ein System bestehend aus einem Rechner einem 
25 Display und Mittel zum Zugriff auf elektronische Dokumente, 

welches das erf indungsgemafie Verfahren und vorzugsweise seine 
Weiterbildungen ausfuhrt, da die Hardware-Mittel weit ver- 
breitet sind und eine gute Verftigbarkeit dieser Mittel ge- 
wahrleistet ist. Ebenfalls ist der Zugriff auf elektronische 
30 Dokumente durch weitverbreitete Netzzugangsmittel und offent- 
liche und private Netze gewahrleistet . 

Im Folgenden werden Ausf uhrungsbeispiele der Erfindung anhand 
von Figuren weiter erlautert, 

Figur 1 zeigt ein Beispiel zur Bildung einer Relevanzmatrix 
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Figur 2 veranschaulicht weitere Verarbeitungsschritte des 
Verf ahrens 

Figur 3 veranschaulicht die Winkelberechnung 
Figur 4 zeigt einen Bildschirmausschnitt nach Durchflihrung 
5 des Verf ahrens. 

Wie Figur 1 zeigt werden bei einer Ausgestaltung des erfin- 
dungsgemafien Verf ahrens elektronische Dokumente Dl, D2 und DN 
verwendet und anhand von Suchprofilen PI, P2 und PM, welche 

10 failweise gewichtete Suchbegriffe enthalten, wird die Infor- 
mation, welche in den Dokumenten Dl bis DN enthalten ist, er- 
schlossen. Bei den verwendeten Dokumenten Dl bis DN kann es 
sich beispielsweise um Dokumente handeln, welche im World 
Wide Web bei einer Net-Suche gefunden wurden. Bei den Profi- 

IS len kann es sich um handerstellte bzw* vom Benutzer defi- 

nierte Suchprofile handeln, welche failweise an den einzelnen 
Begriffen Gewichtungen gemafc ihrer Wichtigkeit aufweisen. 
Ebenfalls ist es denkbar als Profile auch Dokumente zu ver- 
wenden. Beispielsweise ist es auch denkbar Suchprofile anhand 

20 von Wortstatistiken zu erstellen, welche anhand von Dokumen- 
ten durchgeftihrt werden, die der Bediener fur hochst interes- 
sant halt und dem Rechner zur VerfUgung stellt. Ebenso ist es 
denkbar Suchprofile untersttitzt durch einen f achspezif ischen 
Thesaurus einzugeben. Auch kbnnen durch Beobachten des Benut- 

25 zerverhaltens und durch Lernkomponenten Suchprofile automa- 
tisch generiert werden 

In einem Bearbeitungsschritt 100 wird die Relevanz zwischen 
den einzelnen Profilen PI bis PM und den einzelnen Dokumenten 

30 Dl bis DN bestimmt. Vorzugsweise geschieht dies fur alle Do- 
kumente und alle Profile, so dafl eine Relevanzmatrix R ent- 
steht. Zur Bestimmung der Relevanz wird vorzugsweise die 
Worthauf igkeit in den Dokumenten ermittelt und Ubereinstim- 
mende Worte mit den jeweiligen Suchprofilen werden gesucht . 

35 Anschliefcend werden die Suchprofile und die je Dokument und 

Suchprofil ermittelten Ergebnisprof ile als Vektor dargestellt 
und in der Vektor ebene, die durch die Begriffe des Suchvek- 
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tors aufgespannt wird, wird der Winkel zwischen den Suchvek- 
tor und dem Ergebnisvektor bestimmt und als MaI3 fur die Rele- 
vanz des Dokumentes das untersucht wurde, verwendet. In Figur 
1 ist die Relevanzmatrix R mit Zahlen und Buchstaben verse- 
5 hen, um anzudeuten, wie eine Relevanzmatrix aussehen kann. 
Waagerecht sind beispielsweise die Profile PI bis PN aufge- 
tragen und senkrecht die Dokumente Dl bis DN. An den Schnitt- 
punkten der jeweiligen Spalten und Zeilen stehen die Rele- 
vanzwerte. Hierdurch wird erstmals ein mehrwertiger formaler 
10 Kontext realisiert, wodurch die i-te-Zeile der Matrix R den 

Relevanzen des i-ten-Dokuments bezuglich aller Profile k ent- 
spricht. 

Wie Figur 2 weiter zeigt kann die Relevanzmatrix R in Prozefi- 
15 schritten 200, 300 und 400 weiterverarbeitet werden. iBei- 
spielsweise steht txber eine Schnittstelle 500 der Zugriff 
auf Dokumente und Suchprofile und Browser zur Verfiigung. In 
einem ersten Schritt 200 wird beispielsweise aus der Rele- 
vanzmatrix eine Ahnlichkeitsmatrix berechnet, wozu aus den 
20 Relevanzwerten fttr einzelne Dokumente mit anderen Dokumenten 
eine Korrelationsanalyse durchgefuhrt wird* Bevorzugt wied 
die Korrelationsmatrix C folgende Rechenschritte durch 
Berechnung der Korrelationskoef f izienten C iJc zwischen den 
Dokumenten bezuglich der Suchprofile aus der Matrix R durch 
25 folgende Schritte bestimmt: 

-Normierung der Zeilenvektoren ri der Matrix R: 

qi=(ri-mi) 
mit Mittelwert m^l/N I r± 

Lange q± und Standardabweichung a ± =sqrt (2 (ri-iUi) : ) 

30 

-Berechnung der Korrelationskoef f izienten zu 

T 

Q Qk 

Cfc = 1 und der Matrix C. 

-C entspricht dabei in der Form der bisherigen Ahnlich- 
keitsmatrix, bzw. einer Gegenstands-Gegenstandsmatrix . 

35 
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Beispielsweise kann der Mechanismus zur Berechnung der Ahn- 
lichkeit durch unterschiedliche MaBnahmen verbessert werden. 

-In einem ersten Schritt kbnnen beispielsweise Stopworter 
5 eliminiert werden, welche im allgemeinen von der Domane der 
Abhandlung des speziellen Dokumentes abhangig sind. In vie- 
len Fallen konnen dieses Konjunktionen, Artikel, Prapositio- 
nen sein, die sicher entfernt werden konnen, ohne daB dabei 
der Inhalt des Dokumentes verfremdet wird. 

10 

-Fallweise kann es auch moglich sein domanenspezif ische Worte 
zu entfernen, um die Signifikanz des gefundenen Mafies zu 
verbessern. 

15 -Als weitere MaBnahme kann die Metrik des verwendeten Systems 
auf wichtige Aspekte der Applikationsdomane fokussiert wer- 
den. In diesem Fall konnen nur einige wenige Konzepte oder 
Aspekte der beschriebenen Worte aus domanenspezif ischen The- 
sauri verwendet werden, oder Ontologien. 

20 

-Als weitere MaBnahme kann die Unterscheidungskraf t des Ver- 
fahrens verbessert werden, indem eine umgekehrte Dokument- 
f requenzkorrektur eingefiihrt wird. Bei dieser Methode werden 
Wortgewichte verwendet, wobei Worte, die in vielen Dokumen- 

25 ten auftreten, mit einem logarithmischen Faktor F gewichtet 
werden. Dieser Faktor bestimmt sich beispielsweise so, daB F 
= log(Anzahl der Dokumente D, welche das Wort W 5 enthal- 
ten/ durch die Gesamtzahl der Dokumente) . Als Folge dieser 
MaBnahme erhalt man ein wortabhangig gewichtetes Ahnlich- 

30 keitsmaB. 

In einem Verarbeitungsschritt 300 findet beispielsweise die 
Umsetzung der Ahnlichkeitsmatrix ftlr eine raumliche Darstel- 
lung gemafi dem anfangs zitierten Stand der Technik statt. In 
35 einem Verarbeitungsschritt 400 wird gemaB dem Stand der Tech- 
nik der in Schritt 300 zur Verfiigung gestellte Datensatz 
dreidimensional visualisiert . 
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-Darstellung der Korrelationsmatrix C durch raumliche Ab- 
stande nach einem bekannten Verfahren. 

-Anwendung der bekannten Optimierungsalgorithmen zur 
grafischen Aufbereitung . 

5 

-Berticksichtigung der Merkmale in der graphischen Darstel- 
lung* 

-Ein Dokument ist relevant zu einem Profil, wenn wenig- 
stens ein Wort des Profils einmal im Dokument auftritt. 
10 -> Der Gegenstand "Dokument i" hat das Merkmal "Profil 

k". 

-Visual isierung im 3D-Raum 

-VRML: Anwahlen der Dokumente und Profile zeigt die Dokument- 
15 . und Prof ildateien im Fenster eines Internet-Browsers (z. B. : 
Netscape) . 

Der Weg liber eine Ahnlichkeitsmatrix, welche aus der Rele- 

20 vanzmatrix abgeleitet wird, ist beim erf indungsgemaflen Ver- 
fahren jedoch nicht zwingend erforderlich, Es besteht ebenso 
die Moglichkeit eines direkten Ansatzes, wobei die Relevanz- 
matrix R direkt in einen dreidimensionalen Raum umgesetzt 
wird. Hier wird nicht die Metapher der Ahnlichkeit zwischen 

25 Dokumenten und der raumlichen Nahe benutzt, sondern vielmehr 
die Relevanz eines Dokuments im Bezug auf ein bestimmtes 
Merkmal in eine raumliche Nahe umgesetzt. Mit der Erfindung 
wird erstmals die Integration von Textanalyse, Visualisierung 
und Retrieval in einem System realisiert. Insbesondere wird 

30 durch die Erfindung eine neue Verbindungskomponente angege- 
ben, welche aus den Ergebnissen der Dokumentanalyse die Ahn- 
lichkeit von Dokumenten berechnet . Diese Komponente beruht 
auf einem Korrelationsverf ahren, mit welchem die Korrelati- 
onsmatrix berechnet wird, welche anschliefiend im dreidimen- 

35 sionalen Raum auf einem Computerdisplay visualisiert wird. 
Hierdurch wird erstmals die Veranschaulichung mehrwertiger 
formaler Kontexte ermoglicht. 
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Figur 3 veranschaulicht die Berechnung eines Relevanzwertes 
eines Dokuments in bezug auf ein Suchprofil. Wie bereits be- 
schrieben, werden dazu die Texte des Dokuments und des Such- 
5 profils als Vektoren dargestellt. Wegen einer einfachen uber- 
sichtlichen Darstellung wurde hier lediglich ein Suchprofil 
mit zwei Worten T10 und T20 gewahlt. Beispielsweise werden in 
diesem Fall epidemologische Dokumente untersucht. Der Begriff 
T10 bedeutet beispielsweise influenza und T20 bedeutet out- 

10 break. DV bezeichnet den Dokumentenvektor und PV bezeichnet 
den Suchprof ilvektor. An den jeweiligen Achsen T10 und T20 
ist die Haufigkeit der Worte angegeben. Der Winkel a dient 
als Maft fur die t)bereinstimmung des Suchprof ilvektors PV und 
des Dokumentenvektors DV* Insbesondere kann hier ftir der Kosi- 

15 nus des Winkels gebildet werden, da bei einer Ubereinstimmung 
der beiden Vektoren der Winkel 0 ware und damit der Kosinus 
1, was einer exakten Ubereinstimmung entsprache. 

Zur Berechnung des Relevanzwertes eines Dokuments bezuglich 
20 eines Profiles folgt nun ein Beispiel: 

Gegeben sei ein Dokument: 

{Influenza report: Large influenza outbreak reaches Paris.} 

25 

Zu diesem Dokument wird ein Dokumentenvektor , dessen Dimen- 
sionen durch die Begriffe "influenza, large, outbreak, paris, 
reaches, report" bestimmt sind definiert. Das Dokument wird 
bezuglich dieser Dimensionen als Dokumentenvektor 

30 

d={2, 1, 1, 1 , 1, 1} 

dargestellt. Die Elemente des Vektors d entsprechen den 
Worthauf igkeiten der auftretenden Begriffe. 

35 

Ahnlich wie fUr Dokumente und Dokumentenvektoren wird ein 
Suchprofil definiert, 
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{influenza, outbreak} , 



und ein Profilvektor PV, dessen Elemente Gewichtungen der Be- 
5 griff sdimensionen "influenza" und "outbreak" entsprechen, 

PV={1, 1}. 

Es wird die Projektion des Dokumentenvektors d auf die Ebene 
10 des Prof ilvektors berechnet und es ergibt sich der proji- 

zierte Dokumentenvektor , DV={2, 1}. AnschlieBend wird cos a 
zwischen DV und PV als Mali fur die Relevanz r des Dokuments 
bezuglich des Profils definiert: 

<DV,PV> 

15 r=cos a = 



|DV| ||PV|| 



<DV,PV> ist das Skalarprodukt der Vektoren DV und PV, ||.|| ist 
die L^nge eines Vektors . 

20 FUr die Beispielvektoren DV und PV ergibt sich somit eine Re- 
levanz des Dokuments beztlglich des Prof ilvektors von 



25 Der Spezialfall r=l, bzw. a=0° entspricht der bestm$glichen 
Relevanz des Dokuments bezuglich des Profils. Ein Wert r=0 
ergibt sich bei minimaler Relevanz, bzw. Othogonalitat zwi- 
schen DV und PV. 



30 Es folgt ein Beispiel zur Berechnung der Korrelationskoef f i- 
zienten dk aus der Relevanzmatrix R: 

Gegeben seien zwei Zeilenvektoren ri und r k der Matrix R, 
welche die Relevanzen der Dokumente i und k bezogen auf vier 
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Profile enthait. Die Vektoreh der Zeilen i und k enthalten 
die Elemente, 

ri=(0.6, 0.2, 0.4, 0.8) 

5 und 

r k = (0.0, 0.1, 0.3, 0.4) . 

Daraus ergeben sich die Mittelwerte 

10 itii=0.5, m k =0.2. 

Weiter erhalt man 

qi=ri-mi= {0.1, -0.3, -0.1, 0.3) 
15 q k =(-0.2, -0.1, 0.1, 0.2), 

mit Langen 

Oi=0.4472, a k =0.3162. 

20 

Fiir den Korrelationskoef f izienten c lk ergibt sich, 
c & = ^2i-= 0.4243. 

25 

Dieser Koeffizient wird als MaB der Ahnlichkeit von Dokumen- 
ten i und Dokument k, beztiglich der vier Profile interpre- 
tiert. Die Matrix C hat die Form einer Gegenstands-Gegen- 
stands-Ahnlichkeitsmatrix und kann mit bekannten Verfahren 
30 visualisiert werden. 

Wie Figur 4 zeigt, kann eine Dokumentenauswertung in bezug 
auf Interessen bzw. Suchprofile auf einem Bildschirm DIS ver 
anschaulicht werden. Auf dem dargestellten Bildschirmaus- 
35 schnitt sind Dokumente als Wtirfel und Suchprofile als Kugeln 
dargestellt. Im einzelnen handelt es sich bei den Suchprofi- 
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len urn summer, Complication, Measles, Chicken-Pox dazu gas- 
tro-entritis, Diarrhea, winter, Vaccine illness/outbreak, 
flu, Mumps- Die Dokumente sind im einzelnen nicht bezeichnet. 
Durch anklicken eines Dokumentes mit dem Cursor CU wird bei- 
5 spielsweise ein Fenster 10 angezeigt, in welchem der Inhalt 
des jeweiligen Dokumentes dargestellt wird. Wichtig ist hier- 
bei, dafl durch die Anordnung der einzelnen Dokumente zwischen 
den einzelnen Suchprof ilen genau angegeben wird, inwieweit 
die einzelnen Suchprofile in bezug auf dieses Dokument rele- 

10 vant sind. Bei der erf indungsgemafi durchzufuhrenden Analyse 

der einzelnen elektronischen Dokumente konnen ftir die einzel- 
nen Suchbegriffe in den jeweiligen Suchprofilen Gewichtungs- 
faktoren vergeben werden, damit diese beispielsweise abge- 
schwacht gewichtet werden konnen, was zu einer geringeren 

15 Haufigkeit in bezug auf die Obereinstimmung bestimmter Worte 
mit den jeweiligen Dokumenten fuhren wiirde. Anstatt eines 
zweidimensionalen Computer Displays DIS konnen auch dreidi- 
mensionale Anzeigevorrichtungen, wie Virtual-Reality-Raume, 
Head Mounted Display, 3D-Display oder holographisch arbei- 

20 tende Anzeigen Verwendung finden. 
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In diesem Dokument sind folgende Ver6f f entlichungen zitiert: 

[1] : US 5 649 193 
5 (2) : US 5 576 954 
[3] : US 5 642 518 
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Patentansprtiche : 

l.Verfahren zur rechnergestutzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fur ein vorgebbares 
5 Suchprofil das folgende Schritte umfaflt: 

a) es wird das Suchprofil, das mindestens ein Wort umfaflt/ 
erstellt; 

b) fur jedes Wort des Suchprofils wird die 

Auf trittshauf igkeit des Wortes in dem . elektronischen 
10 Dokument bestimmt; 

c) unter Verwendung der Auf trittshauf igkeit jedes Wortes wird 
fur das elektronische Dokument ein Ergebnisprof il bestimmt; 

d) unter Verwendung des Suchprofils und des Ergebnisprof ils 
des elektronischen Dokuments wird ein Vektor fur das 

15 Suchprofil bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und ein vorgebbarer Wert ein Wert der 
Vektor komponente ist, und ein Vektor fur das Ergebnisprof il 
bestimmt, wobei jedes Wort des Suchprofils eine 
Vektorkomponente und die entsprechende Haufigkeit ein Wert 

20 der Vektorkomponente ist; 

e) es wird ein Winkel zwischen dem Vektor des Suchprofils und 
dem Vektor des Ergebnisprof ils bestimmt; 

f) unter Verwendung des Winkels wird die Relevanz bestimmt. 

25 2. Verfahren nach Anspruch 1/ bei dem 

jeweils die Relevanz fur mehrere Suchprofile und/oder 
mehrere elektronische Dokumente bestimmt wird. 

3. Verfahren nach Anspruch 1 oder 2, bei dem 
30 ein erstes, den Vektor eines Suchprofils reprasentierendes, 
Element und ein zweites, den Vektor eines Ergebnisprof il 
eines elektronischen Dokuments reprasentierendes. Element 
dargestellt werden. 

35 4. Verfahren nach Anspruch 3, bei dem 

mehrere zweite Elemente, die jeweils einen Vektor eines 
Ergebnisprof ils eines elektronischen Dokuments 
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reprasentieren, dargestellt werden, derart, daft zweite 
Elemente von elektronischen Dokumenten, welche Dokumente 
eine Relevanz aufweisen, die kleiner ist als ein 
Schwellenwert, ortlich naher beieinander dargestellt werden 
5 als zweite Elemente von elektronischen Dokumenten, welche 

elektronische Dokumente eine Relevanz aufweisen, die nicht 
kleiner ist als der Schwellenwert. 

5. Verfahren nach Anspruch 2 bis 4, bei dem 

10 unter Verwendung der Relevanzen eine Relevanzmatrix (R) 
bestimmt wird. 

6. Verfahren nach Anspruch 5, bei dem 

aus der Relevanzmatrix (R) eine Ahlichkeitsmatrix gebildet 
15 wird, indera die Relevanzwerte je elektronischem Dokument 
(D) zu Relevanzvektoren zusammengef afit und miteinander 
korreliert werden und bei dem diese Ahnlichkeitsmatrix fur 
die grafische Darstellung auf einero Rechnerdisplay (DIS) 
verwendet wird, wobei ein Sinnbild eines ersten elektroni- 
20 schen Dokumentes, welches eine hohere Korrelation mit einem 

zweiten elektronischen Dokument aufweist als ein drittes, 
raumlich naher am Sinnbild des zweiten elektronischen 
Dokumentes dargestellt wird, als das Sinnbild des dritten. 

25 7. Verfahren nach einem der Anspriiche 1 bis 6, bei dem als 
Winkelfunktion der Kosinus verwendet wird. 

8. Verfahren nach einem der Anspriiche 1 bis 7, bei dem als 
elektronische Dokumente (D) Suchergebnisse einer Suche in 

30 einem Rechnernetzwerk verwendet werden. 

9. Verfahren nach Anspruch 8, bei dem als Rechnernetzwerk das 
Internet verwendet wird. 

35 10. Verfahren nach einem der Anspriiche 1 bis 7, bei dem als 
elektronische Dokumente .(D) Dokumente aus einer Datenbank 
verwendet werden. 
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11. Verfahren nach einem der vorangehenden Anspriiche, bei dem 
als Suchprofile (P) elektronische Dokumente (D) verwendet 
warden . 

5 

12. Verfahren nach einem der vorangehenden Anspriiche, bei dem 
ein auf der Angezeigevorrichtung (DIS) angezeigte Sinnbild 
mittels einer Eingabevorrichtung der Rechners ausgewahlt 
und/oder der Textinhalt des Dokumentes fiir das das Sinnbild 

10 steht zur Anzeige gebracht wird. 

13. System zur rechnergesttitzten Ermittlung einer Relevanz 
eines elektronischen Dokuments fiir ein vorgebbares 
Suchprofil mit folgenden Merkmalen: 
15 a) es ist ein Rechner (COMP) vorhanden, der derart 

eingerichtet ist, daB folgende Schritte durchftthrbar sind: 

- es wird das Suchprofil, das mindestens ein Wort umfaBt, 
erstellt ; 

- fiir jedes Wort des Suchprofils wird die 

20 Auf trittshauf igkeit des Wortes in dem elektronischen 

Dokument bestimmt; 

- unter Verwendung der Auf trittshauf igkeit jedes Wortes 
wird fur das elektronische Dokument ein Ergebnisprof il 
bestimmt; 

25 - unter Verwendung des Suchprofils und des 

Ergebnisprof ils des elektronischen Dokuments wird ein 
Vektor fiir das Suchprofil bestimmt, wobei jedes Wort 
des Suchprofils eine Vektorkomponente und ein 
vorgebbarer Wert ein Wert der Vektorkomponente ist, und 

30 ein Vektor fiir das Ergebnisprof il bestimmt, wobei jedes 

Wort des Suchprofils eine Vektorkomponente und die 
entsprechende Haufigkeit ein Wert der Vektorkomponente 
ist; 

- es wird ein Winkel zwischen dem Vektor des Suchprofils 
35 und dem Vektor des Ergebnisprof ils bestimmt; 

- unter Verwendung des Winkels wird die Relevanz 
bestimmt; 
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b) es 1st eine grafische Rechneranzeigevorrichtung (DIS) vor- 
handen; 

c) es sind Mittel zum Zugriff (Z) auf elektronische Dokumente 
(D) vorhanden. 

14. System nach Anspruch 13, bei dem Auswahlmittel vorhanden 
sind, zur Auswahl eines Sinnbildes auf der Rechneranzeige- 
vorrichtung (DIS) . 
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